在前面几个章节中,我们以正态分布为例,学习了如何对正态分布的均值和方差进行区间估计,从中可以看到对不同参数进行区间估计的重要性。与点估计相比,区间估计最大的特点就是能够在一定程度上反映估计量的精确程度。在给定置信度的前提下,估计精度越高,置信区间的长度就越小,反之亦然。因此,区间估计是一个非常有用的统计学工具,需要熟练掌握。但是,实际工作中,除了正态分布以外,还常常会碰到很多其他的重要分布(例如指数分布、0-1分布、泊松分布),它们也常被用于描述不同事件的不确定性。同理,对这些分布中的参数进行估计同样十分重要。本节就将重点讨论如何对常见分布的参数进行区间估计。首先考虑几个典型应用场景。
案例1:直播间滞留时长。如今电商的发展不仅仅局限于传统电商的销售模式,电商内容化、社交化已成为新趋势。直播带货已经成了一种非常重要的电商形态,它具有互动性强、能够直观展示商品等特点。直播带货吸引了大量消费者,创造了大量销售额,并且市场规模不断扩大。以一家汽车品牌4S店的直播间为例,在一定时间内,不停地有新观众进入直播间,同时有老观众离开。对于任何一个观众而言,他在直播间内的滞留时间都是非常有限的,不可能太长。显然直播间的运营方非常希望用户的滞留时间越长越好,因此非常关心用户在直播间的滞留时间有什么规律可循。如果能够建立这个规律与运营动作(例如:主播是否展示才艺、直播间是否赠送礼物)之间的相关关系,那么就有可能通过合理的运营手段,增加用户在直播间的滞留时长,并最终达到提升销售额的目的。为此,需要探讨一个重要的问题:如何描述用户在直播间滞留时长的规律?显然,这不是一件容易的事情,因为这里有太多的不确定性。首先,不同用户之间的滞留时长各不相同。其次,即使同一个用户,多次进入直播间,每次的滞留时长也各不相同。因此用户的滞留时长具有很大的不确定性,可以考虑用某种概率分布来描述该规律。显然,正态分布不是最好的选择,因为一个用户的滞留时长不可能是负数,但是正态分布有正概率产生负数。因此,可能一种更好的尝试方向是:指数分布。指数分布只有一个未知参数,那就是均值。只要能够对均值作足够准确的估计,就可以把握指数分布的所有随机性质,从而理解用户在直播间的滞留时长所服从的不确定性规律。案例2:股票涨跌。从投资者的角度来看,如果不考虑具体的涨跌幅度,股票涨跌可以用一个0-1型随机变量来描述。在金融市场中,股票涨跌具有非常强的不确定性,精准预测未来某个交易日的股票是涨还是跌是一个极其困难的事情。但是,如果能把握股票上涨的一个相对更加长期的规律,就可以从大量的股票中找到具有高投资价值的股票进行投资,从而获得不错的收益。那么,如何衡量一支股票的涨跌情况呢?假设用随机变量Y表示某只股票是“涨”(Y=1)还是“跌”(Y=0)。那么股票的上涨概率就是P(Y=1)。如果能够通过股票在一段时间内的涨跌表现,对该股票的上涨概率P(Y=1)进行估计,就可以在一定程度上把握股票在一个比较长的时期内的涨跌规律。例如,在之前的章节中,我们使用了一种简单有效的估计方法,就是用一段时间内(比如n=100)股票上涨天数的占比,作为对该股票上涨概率的估计值。然而,这个估计值仍然是一个点估计量,它是具有不确定性的。比如,当缩短或拉长观察期(例如,n=50或n=200)时,股票上涨天数占比的取值可能就不同,这可能会影响对真实参数P(Y=1)的判断。为了解决这一问题,就需要进一步给出上涨概率P(Y=1)的区间估计,从而更好的把握上涨概率P(Y=1)的取值。案例3:消费者购物次数。许多大型零售商都设有数据分析部门,专门进行消费者购物行为的分析,其中数据分析人员非常关注的一个指标是某段时间内(比如一个月内)消费者的购物次数,因为它能够反映客户在该零售商消费的活跃度。消费者购物次数是具有不确定性的。在同一个月内,不同消费者的购物次数会由于消费水平、消费习惯等因素的不同而产生差异;对于同一个消费者,在不同月份的购物次数也会因购物需求的不同而产生差异。由于购物次数的不确定性,数据分析人员可能首先需要用一个分布来刻画它的规律,再做进一步的分析,比如通过建模分析探究购物次数的影响因素,从而提出更好的经营策略等。那么消费者购物次数的分布应该符合什么条件呢?首先这个分布中随机变量的取值最好没有上限,而且这个分布应该是一个取值为非负整数的离散分布。那么泊松分布也许是一个不错的选择。泊松分布只有一个参数,就是均值。只要对泊松分布的均值作出足够准确的估计,便可以把握消费者购物次数的不确定性规律。指数分布。上面几个案例涉及不同的分布形式,但它们的相同点都是需要对分布中的关键参数进行点估计和区间估计。首先以指数分布为例,探讨如何进行参数估计。假设有一组独立同分布的随机变量,其中任意一个变量都服从参数为的指数分布,因此该分布的期望为,方差为。如何对参数进行估计呢?我们在之前的章节中学习了两种经典的参数估计方法:矩估计和极大似然估计,因此下面首先使用这两种方法估计。首先研究矩估计。由于指数分布的期望为,因此可以考虑一阶矩,为此只需要用样本均值估计总体均值即可。所以的一个矩估计是。接下来再研究一下极大似然估计,首先需要写出对数似然函数:,然后计算对数似然函数对的导数,并求解导数等于0的方程,即可求得的极大似然估计,具体过程如下:由此可见,参数的基于一阶矩的矩估计和极大似然估计是相同的,都是样本均值,统一记为。显然具有不确定性,因而一定会产生估计误差。那么这个估计误差有多大呢?是不是随着样本量的增大而减小呢?为了直观说明,设定真实值,然后在不同样本量(n=10,100,1000)下,生成1000组数据,分别计算并绘制对比箱线图,如图2.5.1所示。可以看到,当样本量更大时,和之间的距离平均水平(以中位数计)更接近0,而且波动性更小。图2.5.1:指数分布中不同样本量下的的对比箱线图
接下来研究和之间的差异服从什么分布。考虑三个不同的样本量(n=1,10,100),分别进行1000次实验,在每次实验中用得到的样本计算,然后将所有得到的1000个绘制成直方图,如图2.5.2所示。从图中可以看到,随着样本量的增大,的形状越来越近似于正态分布。这个结果并不意外,因为在2.3节中我们已经学习过中心极限定理:如果独立随机变量服从均值为,方差为的分布,无论该分布是哪一种分布,标准化随机变量都会随着样本量n增大而渐近地服从标准正态分布,其中以及。对指数分布而言,有而且。因此,标准化随机变量应近似服从一个标准正态分布,而且样本量越大近似效果越好。由此可以知道,也随样本量n增大而渐近地服从正态分布。计算一下可以知道其均值为0,方差为,相应的正态分布曲线也在图2.5.2中用红线画了出来。图2.5.2:指数分布中不同样本量下的直方图
由中心极限定理知道,标准化随机变量渐近服从标准正态分布。因此,可以求解出在置信水平下的近似置信区间。数学细节如下:请注意这里用到了。于是得到的一个近似置信区间为:请注意,使用这个置信区间要求,也就是。在上面的求解过程中,转换不等式这个操作似乎稍微有些麻烦。造成麻烦的原因是的分母中也含有参数。有没有什么更简易的构造置信区间的方法呢?可以考虑用去代替的计算式分母中的。这就相当于用代替了中的。这个新的标准化变量仍然是渐近服从标准正态分布的,因此可得:由此可以获得的另一种近似置信区间为:同一个参数的置信区间,竟然有两种不同的构造方法。这个现象意外吗?不意外!就像对同一个参数,可能有不同的点估计方法(矩估计与极大似然估计)。因此也很有可能有不同的区间估计方法。当然这产生了一个问题:不同的置信区间,哪一个更好?这是一个很好的问题,更深入的研究可以从两方面展开。一方面是用极限理论去对比分析它们的理论性质。在控制置信度相同的前提下,从理论上对比两种置信区间的长度。另一方面是可以做随机模拟对比估计效果,在保证置信度相同的前提下,从数值模拟的角度对比置信区间的长度。更深入的讨论超出了本书的范畴。类似的问题在其他分布中也大量存在,为简单呈现,在接下来的讨论中,我们只讨论最简便的置信区间构造方式,下一节的样本量计算也以此为基础。
请注意上面构造的置信区间是基于中心极限定理构造的近似的置信区间,所谓近似是指其真实的置信水平不是1-α,而是近似1-α。样本量越大,近似效果越好。如何理解这个渐近的置信水平呢?为此,可以先设置一个参数λ=1,并设定置信水平为1-α=95%,然后尝试不同的样本量n。对于一个给定的样本量n,用上文介绍的第二种构造方式构造一个置信区间,然后判断该区间是否覆盖真实参数。重复该实验1000次,并计算置信区间覆盖真实参数的比率,呈现在图2.5.3中。可见随着样本量的增大,置信区间的实际覆盖率(灰色柱子高度)逐渐接近理论水平95%(红色虚线)。这便是渐近置信水平中的“渐近”的含义,随着样本量增大,置信区间覆盖真实参数的概率渐近于1-α。
图2.5.3:指数分布中不同样本量下λ的95%近似置信区间的覆盖率
0-1分布。接下来讨论0-1分布的参数估计。假设有一组独立同分布的随机变量,其中任意一个变量只有0和1两个取值,并且定义,因此。进一步通过计算可以知道,此时0-1分布的期望为,方差为。如何对参数进行估计呢?仍然可以使用矩估计和极大似然估计两种方法。矩估计中,选择一阶矩,只需要用样本均值估计总体均值即可。所以的一个矩估计是。接下来进行极大似然估计,首先需要写出对数似然函数:,求该函数对的导数,然后令导数为0可得的极大似然估计如下:再次发现,在0-1分布中矩估计和极大似然估计是相同的,都是样本均值,记为。接下来考察估计量的估计误差随着样本量的增大会如何变化。设定,然后在不同样本量(n=10,100,1000)下,生成1000组数据,分别计算并绘制对比箱线图,如图2.5.4所示。可以看到,当样本量增加时,和之间的距离更接近0,波动性更小。图2.5.4:0-1分布中不同样本量下的的对比箱线图
然后再研究服从什么分布。会不会和前面指数分布中的一样,渐近服从正态分布呢?考虑不同的样本量(n=1,10,100),分别进行1000次实验,在每次实验中用得到的样本计算,然后将所有得到的1000个绘制成直方图,再画出对应的正态分布概率密度曲线,如图2.5.5所示。可以看到,随着样本量n的增大,越来越近似正态分布。这个发现非常有趣,但并不令人惊讶。因为这是一个完全可以由中心极限定理解释的现象,详细情况如下。对于0-1分布,有而且,标准化随机变量为。由中心极限定理可知,该随机变量应渐近服从正态分布,因此也随样本量n增大而渐近地服从正态分布,而且样本量越大近似效果越好。图2.5.5:0-1分布中不同样本量下的直方图
下面可以利用中心极限定理,构造的置信水平为(1-α)的近似置信区间。为使构造更加简便,用代替分母中的,得到的仍然是随着n的增大渐近服从标准正态分布的,所以有:于是得到的一个(1-α)近似置信区间为:前面提到,1-α是一个随着样本量n增大而渐近的置信水平。这就是说,置信区间覆盖参数真值的概率并不精确等于1-α,而是随着样本量的增大而逐渐趋于1-α。0-1分布的近似置信区间是否仍然符合这个规律呢?可以进行随机模拟来验证。先设置0-1分布的参数,并设定置信水平为1-α=95%,然后尝试不同的样本量n。对于一个给定的样本量n,构造一个置信区间,然后判断该区间是否覆盖真实参数。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.6中。由图可知,仍然符合渐近的规律,随着样本量的增大,置信区间的真实覆盖率逐渐接近理论水平95%(红色虚线)。图2.5.6:0-1分布中不同样本量下p的95%近似置信区间的覆盖率
泊松分布。接下来讨论泊松分布参数的区间估计。泊松分布只有一个参数λ,仍然可以使用矩估计和极大似然估计两种方法对其进行估计。假设有一组独立同分布的随机变量,其中任意一个变量都服从参数为λ的泊松分布,于是有,。矩估计时,仍然考虑一阶矩,则。接下来计算λ的极大似然估计,写出对数似然函数,并通过求导可得:可以发现,关于泊松分布的参数λ的矩估计和极大似然估计也是一样的,都是样本均值,记为。接下来同样考察与的距离随样本量的变化。设定参数,在不同的样本量(n=10,100,1000)下分别进行1000次随机模拟,绘制的对比箱线图如图2.5.7所示,可见当样本量更大时,和之间的距离平均水平(以中位数计)更接近0,波动性更小。图2.5.7:泊松分布中不同样本量下的的对比箱线图
再通过随机模拟验证一下的渐近分布。同样设置,考虑三个不同的样本量(n=1,10,100),分别进行1000次实验,在每次实验中计算,然后将所有得到的1000个绘制成直方图如图2.5.8所示。可见随着样本量的增大,的形状也越来越近似于正态分布。这再次验证了中心极限定理的威力!图2.5.8:泊松分布中不同样本量下的直方图
接下来使用与前面两个分布相同的步骤,构造λ的置信区间。根据中心极限定理,标准化的随机变量随样本量n的增大渐近服从标准正态分布,所以当样本量n足够大时,可以有:因此,泊松分布中参数λ的一个近似(1-α)置信区间为:同样可以通过进行随机模拟来验证置信区间对真值λ的覆盖率是否接近1-α。设置参数,并设定置信水平为1-α=95%,然后尝试不同的样本量n。对于一个给定的样本量n,构造一个置信区间,然后判断该区间是否覆盖真实参数。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.9中。可以看到,仍然符合置信区间覆盖率随着样本量n的增大渐近于1-α=95%(红色虚线)的规律。图2.5.9:泊松分布中不同样本量下λ的95%近似置信区间的覆盖率
一般分布的均值。以上已经讨论了指数分布、0-1分布和泊松分布这三种分布中参数的区间估计,这些都是对已知形式的特定分布进行参数估计的方法,其中构造置信区间的细节是因分布的不同而不同的。为讨论方便,我们称这一大类依赖于特定分布的置信区间构造方法为特定分布方法。而区别于特定分布方法的一般分布方法,可以对任意分布的均值的置信区间进行估计。假设有一组独立同分布的随机变量,只知道服从均值为,方差为的分布,但并不知道分布的具体形式。这时如果希望对均值进行区间估计,该怎么做呢?仍然可以使用中心极限定理,只要确保均值和方差存在就可以。具体而言,根据中心极限定理,知道随样本量n的增大渐近服从正态分布。由于是未知的,只好用估计值代替它,例如的一个估计量是。此时得到的仍然具有渐近正态性。确定置信水平α后,当样本量n足够大时,可以有:因此可得关于一般分布均值的一个(1-α)近似区间为:这与方差未知时正态分布中均值的区间估计结果是相同的。请问这个适用于大量一般分布的方法能不能用来为指数分布、0-1分布和泊松分布这些特定分布的参数提供区间估计呢?当然可以。但结果可能会与前面所介绍的特定分布方法略有不同。但哪一个区间估计更好呢?这是一个好问题!一般而言,特定分布方法构造的置信区间会比一般分布方法构造的置信区间更短,因此更精确,因为特定分布方法充分利用特定分布的分布信息。例如,如果我们知道某计数数据服从泊松分布,那么就能够知道该分布的均值等于方差,进而方差就没必要单独估计。取而代之的是集中所有数据信息把均值这一个参数估计出来。这是一个非常宝贵的先验知识,对一般分布而言是没有的。
当然凡事有利必有弊。至少存在两种情况,特定分布方法并不优于一般分布方法。第一种情况很简单,那就是恰好两种方法构造的置信区间一样。例如,对于正态分布而言,两种方法构造的置信区间完全一样。还有一种情况,那就是真实分布其实并不是用户指定的那个特定分布。例如面对一个计数数据,用户觉得它应服从泊松分布,因此隐含了一个假设:均值等于方差。但是数据的真实分布的均值明显小于方差,那么此时根据基于泊松分布构造的置信区间是完全错误的,会产生严重偏差。但是,由于一般分布方法的有效性不依赖于特定的分布假设,因此一般分布方法构造的置信区间仍然是渐近有效的。从这个角度看,一般分布方法更加稳健。
案例演示。接下来回到本节开头的三个实际案例,对每个案例分别用特定分布方法和一般分布方法进行分析,展示区间估计的应用,并对比特定分布方法和一般分布方法的不同。对案例1的直播间滞留时长,我们采用了某直播间某次直播中的500个用户数据。假设用户在直播间的滞留时长服从指数分布,然后用不同方法分别估计用户滞留时长均值的1-α=95%近似置信区间。首先用特定分布方法估计,置信区间为。需要计算指数分布参数λ的估计量,为0.9522。另外查表得,代入公式得置信区间为[0.8687,1.0357]。然后尝试采用一般分布方法,其置信区间表达式为。计算得到样本标准差为,所以得到滞留时长的95%近似置信区间为[0.8738,1.0305]。可以看到两种方法得到的置信区间很接近。对于案例2的股票涨跌情况,使用上证综指自2021年1月5日至2021年12月31日共242个交易日的涨跌数据。对每个交易日定义一个0-1型变量,如果上涨则,如果下跌则。使用两种不同的方法来构造该0-1分布中参数p的置信区间。首先使用特定分布方法,置信区间表达式为。计算得到,代入置信区间的表达式,得到上涨概率的一个95%近似置信区间为[0.4577,0.5836]。再尝试一般分布方法,进一步计算。代入,得到另一个95%近似置信区间为[0.4577,0.5836]。发现这个结果与特定分布方法得到的结果完全一样。其根本原因在于,对于0-1分布,可以验证。对于案例3,我们获得了美国某超市在2016年11月内87位消费者的购买次数的公开数据。假设消费者的购买次数服从泊松分布。仍然选定置信水平为1-α=95%。首先使用特定分布方法,区间估计表达式为。根据数据计算可得,代入表达式得到λ的95%近似置信区间为[1.6816,2.2725]。然后使用一般分布方法进行估计,计算标准差估计值,代入区间估计表达式,得到基于一般分布方法的95%近似置信区间为[1.6649,2.2891]。两种方法得到的结果仍然差距不大。两样本问题。我们目前讨论的都是对单个总体的区间估计。但在某些情况下,人们关心的总体不止一个。例如人们可能希望对两个总体的均值进行对比分析。为此需要从两个总体中各收集一些样本,这就构成了两个独立样本。然后在两个独立样本的帮助下对两个总体的均值差异作区间估计。记第一个独立样本的随机变量为,并假设服从均值为,方差为的未知分布;记另一个独立样本的随机变量为,并假设服从均值为,方差为的未知分布。请注意,这里并没有要求这两个分布是正态分布。我们关心的参数是两个总体的均值差异,而一个自然的矩估计是。那么计算一下可以知道的均值为,方差为。因此,可以对做一个标准化,得到。由于方差和未知,可以用和代替。根据中心极限定理,随着样本量和的增大而渐近服从标准正态分布。利用这个性质便可以求解出的(1-α)近似置信区间了:因此,关于两样本总体均值差异的一个1-α近似置信区间为:接下来通过随机模拟对上面的理论进行展示。简单起见,考虑两个总体都服从相同类型的分布且样本量相同。设置置信水平为1-α=95%,尝试两个总体都服从正态分布、指数分布、0-1分布和泊松分布四种情况,并尝试不同的样本量。对于一个给定的样本量n,构造一个的置信区间,然后判断该区间是否覆盖真实的。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.10中。可以看到,无论总体是哪一种分布,都符合置信区间覆盖率随着样本量n的增大渐近于1-α=95%(红色虚线)的规律。图2.5.10:不同分布、不同样本量下的95%近似置信区间的覆盖率
非线性变换。目前讨论的目标参数都是均值,但有时候人们感兴趣的参数是均值μ的某种非线性变换,其中是一个给定的非线性变换,例如。此时的点估计与区间估计应如何构造呢?点估计的问题比较好解决。因为是关于的一个相合估计,因此自然是一个关于的良好估计。但是这里的关键问题是,与之间的差异有多大?服从什么分布?如何构造置信区间?为此考虑一个比较简单的情形。假设是一个关于的光滑函数,而且,其中是关于的一阶导数。因为是关于的相合估计,因此可知与的差异非常小,只要样本量足够大。在这种情况下,与的差异就可以通过泰勒展开式进行近似,即:。请注意,该近似符号的左端是一个关于与的非线性函数,但是其右端却是一个线性函数。根据中心极限定理,我们知道,应该渐近服从一个均值为0,方差为的正态分布。因此可以得到标准化随机变量应渐近服从标准正态分布。由于和通常都未知,因此可以用估计量和代替。所以可以构造一个(1-α)近似置信区间如下:因此得到近似置信区间为:接下来以为例,对上面的理论进行展示。具体而言,对新的估计目标,代入上式可得到它的(1-α)近似置信区间为。设置置信水平为1-α=95%,尝试总体服从正态分布、指数分布、0-1分布和泊松分布四种情况,并尝试不同的样本量n。对于一个给定的样本量n,构造一个的置信区间,然后判断该区间是否覆盖真实的。重复该实验1000次,并计算置信区间覆盖真实参数的比率(灰色柱子高度),呈现在图2.5.11中。可以看到,无论总体是哪一种分布,都符合置信区间覆盖率随着样本量n的增大渐近于1-α=95%(红色虚线)的规律。图2.5.11:不同分布、不同样本量的95%近似置信区间的覆盖率
总结讨论。本节首先介绍了指数分布、0-1分布和泊松分布的区间估计方法,然后给出了适用于任意分布的一般分布方法,并展示了这些方法在实际案例数据中的应用。此外,还介绍了两样本问题和总体均值的非线性变换的区间估计方法。相信学习到这里,你已经对区间估计有了较为全面的了解。请注意,目前的学习都是基于已知的样本量去计算置信区间。样本量越大,置信区间越短。但是在很多情况下,我们对置信区间的长度是有预期的,是不能超过某个给定长度的。在这种情况下需要多大的样本量,才能让置信区间长度满足该预期呢?这就是下一节将要学习的内容。
- END -
京东购书
当当购书
往期推荐
引言:从不确定性出发
第1章:不确定性的数学表达:连续型数据
第1章:不确定性的数学表达:正态概率密度
第1章:不确定性的数学表达:t-分布
第1章:不确定性的数学表达:指数分布
第1章:不确定性的数学表达:0-1分布
第1章:不确定性的数学表达:泊松分布
第2章:参数估计:矩估计
第2章:参数估计:极大似然估计
第2章:参数估计:正态分布均值的区间估计
第2章:参数估计:正态分布方差的区间估计